Des nouvelles ont été ajoutées en tête de listes.
Remontez pour les voir.
Inscription à la newsletter
Évaluation des LLM : les arbitrages de Salesforce | Silicon
Clément Bohic - Silicon -
04/07
Salesforce a entrepris un benchmark des LLM sur des cas d'usage CRM. Comment l'a-t-il orchestré et qu'en ressort-il ?
Quelle taille de prompt ? Quel juge pour les évaluations automatisées ? Quelles conditions d’exécution pour les modèles non disponibles sur une API publique ? Autant de questions que Salesforce a dû aborder pour constituer son benchmark de LLM.
Ce benchmark a la particularité de cibler des cas d’usage propres aux CRM. Dans deux domaines en l’occurrence : ventes et service. Ils couvrent la synthèse et la génération de contenus textuels.
Pour le moment, Salesforce n’a évalué que des modèles génériques entraînés pour le suivi d’instructions. Ils émanent de huit fournisseurs :
– AI21 (Jamba-Instruct) – Anthropic (Claude 3 Haiku, Claude 3 Opus) – Cohere (Command R+, Command Text) – Google (Gemini Pro 1.0, Gemini Pro 1.5) – Meta (Llama 3 8B, Llama 3 70B) – Mistral AI (Mistral 7B, Mixtral 8x7B) – OpenAI (GPT-4o, GPT-4 Turbo, GPT-3.5 Turbo) – Salesforce (XGen 2)
À benchma... [Courte citation de 8% de l'article original]
Loading...
🍪
Le modèle économique de notre site repose sur l'affichage de publicités personnalisées basées sur l'utilisation de cookies publicitaires. En continuant votre visite sur notre site, vous consentez à l'utilisation de ces cookies.
Politique de confidentialité